Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose an image-based head swapping framework (HS-Diffusion) which consists of a semantic-guided latent diffusion model (SG-LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. SG-LDM can further implement fine-grained head swapping with the blended layout as condition by a progressive fusion process, while preserving source head and source body with high-quality reconstruction. To this end, we design a head-cover augmentation strategy for training and a neck alignment trick for geometric realism. Importantly, we construct a new image-based head swapping benchmark and propose two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
本文介绍了一种简单的有效学习算法,用于一般顺序决策。该算法将探索的乐观与模型估计的最大似然估计相结合,因此被命名为OMLE。我们证明,Omle了解了多项式数量的样本中一系列非常丰富的顺序决策问题的近乎最佳策略。这个丰富的类别不仅包括大多数已知的基于模型的基于模型的强化学习(RL)问题(例如表格MDP,计算的MDP,低证人等级问题,表格弱弱/可观察到的POMDP和多步可解码的POMDP),但是同样,许多新的具有挑战性的RL问题,尤其是在可观察到的部分环境中,这些问题以前尚不清楚。值得注意的是,本文解决的新问题包括(1)具有连续观察和功能近似的可观察到的POMDP,在其中我们实现了完全独立于观察空间的第一个样品复杂性; (2)条件良好的低级顺序决策问题(也称为预测状态表示(PSRS)),其中包括并概括了所有已知的可牵引的POMDP示例,这些示例在更固有的表示下; (3)在帆条件下进行一般顺序决策问题,这统一了我们在完全可观察和部分可观察的设置中对基于模型的RL的现有理解。帆条件是由本文确定的,可以将其视为贝尔曼/证人等级的自然概括,以解决部分可观察性。
translated by 谷歌翻译
超声成像在诊断血管病变中起重要作用。血管壁的准确分割对于预防,诊断和治疗血管疾病很重要。但是,现有方法的血管壁边界的定位不准确。分割误差发生在不连续的血管壁边界和黑暗边界中。为了克服这些问题,我们提出了一个新的边界限制网络(BDNET)。我们使用边界细化模块重新限制血管壁的边界以获得正确的边界位置。我们设计了特征提取模块来提取和融合多尺度特征和不同的接受场功能,以解决黑暗边界和不连续边界的问题。我们使用新的损失函数来优化模型。级别不平衡对模型优化的干扰可阻止获得更细致,更光滑的边界。最后,为了促进临床应用,我们将模型设计为轻量级。实验结果表明,与数据集的现有模型相比,我们的模型可实现最佳的分割结果,并显着降低记忆消耗。
translated by 谷歌翻译
视觉变压器(VIT)在各种计算机视觉任务中的成功促进了该无卷积网络的不断增长。 VIT在图像贴片上工作的事实使其可能与拼图拼图解决的问题有关,这是一项经典的自我监督的任务,旨在重新排序洗牌的顺序图像贴片回到其自然形式。尽管它很简单,但已证明解决拼图拼图对使用卷积神经网络(CNN)(例如自我监督的特征表示学习,领域的概括和细粒度分类)的任务有帮助。在本文中,我们探索了解决拼图拼图作为图像分类的自我监督的辅助损失,名为Jigsaw-Vit。我们展示了两种修改,可以使拼图优于标准VIT:丢弃位置嵌入和随机掩盖斑块。但是很简单,我们发现拼图vit能够改善标准VIT的概括和鲁棒性,这通常是一种权衡。在实验上,我们表明,在ImageNet上的大规模图像分类中,添加拼图拼图分支比VIT提供了更好的概括。此外,辅助任务还提高了对动物-10n,食物101N和服装的嘈杂标签的鲁棒性,也可以提高对抗性示例。我们的实施可从https://yingyichen-cyy.github.io/jigsaw-vit/获得。
translated by 谷歌翻译
模型大小的范围不断增加,并且持续改进性能使大型模型时代的到来的到来。在本报告中,我们通过潜入培训目标和培训方法来探讨大型模型培训如何运作。具体而言,培训目标描述了如何利用Web规模数据来开发基于自我监督的学习以及基于分布式培训的培训方法,开发出极强的大型模型,描述了如何使大型模型培训成为现实。我们将现有的培训方法总结为三个主要类别:训练并行性,节省记忆技术和模型稀疏设计。训练并行性可以根据发生的并行性维度分类为数据,管道和张量并行性。节省记忆的技术是正交的,并且与训练并行性互补。和模型稀疏设计以恒定的计算成本进一步扩大模型大小。在https://github.com/qhliu26/bm-training提供了不断更新的大型模型培训清单。
translated by 谷歌翻译
本文提出了用于学习两人零和马尔可夫游戏的小说,端到端的深钢筋学习算法。我们的目标是找到NASH平衡政策,这些策略不受对抗对手的剥削。本文与以前在广泛形式的游戏中找到NASH平衡的努力不同,这些游戏具有树结构的过渡动态和离散的状态空间,本文着重于具有一般过渡动态和连续状态空间的马尔可夫游戏。我们提出了(1)NASH DQN算法,该算法将DQN与nash finding subroutine集成在一起的联合价值函数; (2)NASH DQN利用算法,该算法还采用了指导代理商探索的剥削者。我们的算法是理论算法的实用变体,这些变体可以保证在基本表格设置中融合到NASH平衡。对表格示例和两个玩家Atari游戏的实验评估证明了针对对抗对手的拟议算法的鲁棒性,以及对现有方法的优势性能。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
本文研究了用于多机构增强学习的政策优化算法。我们首先在全信息设置中提出了针对两人零和零和马尔可夫游戏的算法框架,其中每次迭代均使用一个策略更新,使用某个矩阵游戏算法在每个状态下进行策略更新,并带有一个带有特定的值更新步骤学习率。该框架统一了许多现有和新的政策优化算法。我们表明,只要矩阵游戏算法在每种状态下,该算法的州平均策略会收敛到游戏的近似NASH平衡(NE),只要矩阵游戏算法在每个状态下都具有低称重的遗憾价值更新。接下来,我们证明,该框架与每个状态(和平滑值更新)的乐观跟踪定制领导者(oftrl)算法可以找到$ \ Mathcal {\ widetilde {o}}(t^{ - 5 /6})$ t $迭代中的$近似NE,并且具有稍微修改的值更新规则的类似算法可实现更快的$ \ Mathcal {\ widetilde {o}}}}(t^{ - 1})$收敛率。这些改进了当前最佳$ \ Mathcal {\ widetilde {o}}}(t^{ - 1/2})$对称策略优化类型算法的速率。我们还将此算法扩展到多玩家通用-SUM Markov游戏,并显示$ \ MATHCAL {\ widetilde {o}}}(t^{ - 3/4})$收敛率与粗相关均衡(CCE)。最后,我们提供了一个数值示例来验证我们的理论并研究平滑价值更新的重要性,并发现使用“渴望”的价值更新(等同于独立的自然策略梯度算法)也可能会大大减慢收敛性,即使在$ h = 2 $层的简单游戏。
translated by 谷歌翻译
零和游戏中的理想策略不仅应授予玩家的平均奖励,不少于NASH均衡的价值,而且还应在次优时利用(自适应)对手。尽管马尔可夫游戏中的大多数现有作品都专注于以前的目标,但我们是否可以同时实现这两个目标仍然开放。为了解决这个问题,这项工作在马尔可夫游戏中与对抗对手进行了无重组学习,当时与事后最佳的固定政策竞争时。沿着这个方向,我们提出了一组新的正面和负面结果:当每个情节结束时对手的政策被揭示时,我们提出了实现$ \ sqrt {k} $的新的有效算法 - 遗憾的是(遗憾的是) 1)基线政策类别很小或(2)对手的政策类别很小。当两种条件不正确时,这与指数下限相辅相成。当未揭示对手的政策时,即使在最有利的情况下,当两者都是正确的情况下,我们也会证明统计硬度结果。我们的硬度结果比仅涉及计算硬度或需要进一步限制算法的现有硬度结果要强得多。
translated by 谷歌翻译